Cтатья 8215

Название статьи

ПОМЕХОУСТОЙЧИВЫЙ АДАПТИВНЫЙ АЛГОРИТМ СЕГМЕНТАЦИИ «СИГНАЛ/ПАУЗА» ДЛЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ

Авторы

Алимурадов Алан Казанферович, аспирант, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), alansapfir@mail.ru
Чураков Петр Павлович, доктор технических наук, профессор, кафедра информационно-измерительной техники и метрологии, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), iit@pnzgu.ru

Индекс УДК

004.934

Аннотация

Актуальность и цели. Объектом исследования являются этапы обработки речевых сигналов, применяемые в системах распознавания речи. Предметом исследования является задача сегментации «сигнал/пауза», представляющая собой обнаружение границ участков сигнала и пауз в общем потоке речевых сигналов. Цель работы – разработка и исследование помехоустойчивого алго-ритма сегментации «сигнал/пауза», адаптивного к агрессивно зашумленной среде.
Материалы и методы. В разработке алгоритма использовались: метод адаптивной обработки нелинейных и нестационарных сигналов – комплемен-тарная множественная декомпозиция на эмпирические моды; метод обработки статистических данных – независимый компонентный анализ; метод разграни-чения с использованием понятий нормального распределения и одномерного расстояния Махаланобиса.
Результаты. Разработан и исследован помехоустойчивый адаптивный ал-горитм сегментации «сигнал/пауза» для систем распознавания речи. Представ-лена блок-схема алгоритма с подробным математическим описанием. Указаны преимущества по сравнению с известными алгоритмами сегментации «сиг-нал/пауза», применяемыми в системах распознания речи. Разработанный алго-ритм обеспечивает повышение коэффициента действительного обнаружения
в среднем на 13 %.
Выводы. Сопоставление результатов исследований позволяет сделать вы-вод, что разработанный помехоустойчивый адаптивный алгоритм сегментации «сигнал/пауза» рекомендуется для практического применения в системах рас-познавания речи, используемых в агрессивно зашумленной среде.

Ключевые слова

обработка речевых сигналов, сегментация «сигнал/пауза», распознавание речи, комплементарная множественная декомпозиция на эмпирические моды.

 

 Скачать статью в формате PDF

Список литературы

1. Рабинер, Л. Р. Цифровая обработка речевых сигналов : пер. с англ. / Л. Р. Ра-бинер, Р. В. Шафер. – М. : Радио и связь, 1981. – 496 с.
2. Чураков, П. П. Изучение методов анализа и обработки сигналов : учеб. посо-бие : в 2 ч. Ч. 1 : Современные методы обработки речевых сигналов / П. П. Чура-ков, А. Ю. Тычков, А. К. Алимурадов. – Пенза : Изд-во ПГУ, 2014. – 72 с.
3. Atal, B. A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition / B. Atal, L.R. Rabiner // Acoustics, Speech, and Sig-nal Processing, IEEE Transactions. – 1976. – Vol. 24 (3), Jun. – P. 201–212.
4. Childers, D. G. Silent and Voiced/Unvoied. Mixed Excitation (Four-Way), Classifi-cation of Speech / D. G. Childers, M. Hand, J. M. Larar // IEEE Transaction on ASSP. – 1989. – Vol. 37 (11), Nov. – P. 1771–1774.
5. Greenwood, M. SUVing: Automatic Silence/ Unvoiced/ Voiced Classification of Speech : Undergraduate Coursework, Department of Computer Science / M. Green-wood, A. Kinghorn. – The University of Sheffield, UK, 1999. – 4 p.
6. Yeh, J.-R. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method / J.-R. Yeh, J.-S. Shieh, N. E. Huang // Advances in Adaptive Data Analysis. – 2010. – Vol. 2 (2). – P. 135–156.
7. Richard, O. D. Pattern Classification / O. D. Richard, E. H. Peter, G. St. David. – A Wiley-interscience publication, John Wiley & Sons, Inc, Second Edition, 2001. – 41 p.
8. Hyvarinen, A. Independent component analysis: algorithms and applications / A. Hyvarinen, E. Oja // J. Neural Networks. – 2000. – P. 411–430.
9. Sarma, V. Studies on pattern recognition approach to voiced-unvoiced-silence classi-fication / V. Sarma, D. Venugopal // Acoustics, Speech, and Signal Processing, IEEE In-ternational Conference on ICASSP '78. – 1978. – Vol. 3, Apr. – 4 p.
10. Алимурадов, А. К. Применение преобразования Гильберта-Хуанга в задаче выделения информативных признаков речевых сигналов / А. К. Алимурадов, А. Ю. Тычков // Международный научно-исследовательский журнал. – 2013. – № 5-1 (12). – С. 57–58.
11. Алимурадов, А. К. Применение комплементарной множественной декомпо-зиции на эмпирические моды для анализа речевых сигналов / А. К. Алимурадов, Ю. С. Квитка // Измерение. Мониторинг. Управление. Контроль. – 2014. – № 4 (10). – С. 69–75.
12. Алимурадов, А. К. Адаптивная компенсация помех речевых сигналов с ис-пользованием комплементарной множественной декомпозиция на эмпирические моды / А. К. Алимурадов // Молодежь и XXI век – 2015 : материалы V Междунар. молодежной науч. конф. (26–27 февраля 2015 г.) : в 3-х т. / Юго-Зап. гос. ун-т. – Курск : Университетская книга, 2015. – Т. 2. – С. 96–99.
13. Алимурадов, А. К. Адаптивный алгоритм предварительной обработки рече-вых сигналов для оценки частоты основного тона / А. К. Алимурадов // Проблемы автоматизации и управления в технических системах – 2015 : сб. тр. XXXI Меж-дунар. науч.-техн. конф. (Пенза 19–21 мая 2015 г.). – Пенза : Изд-во ПГУ, 2015. – С. 103–106.
14. Huang, N. E. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis / N. E. Huang, Shen Zheng, R. L. Steven // Proceedings of the Royal Society of London A. – 1998. –Vol. 454. – P. 903–995.
15. Saha, G. A New Silence Removal and Endpoint Detection Algorithm for Speech and Speaker Recognition Applications / G. Saha, Chakroborty Sandipan, Senapat Suman // Proceedings of the NCC. – 2005, Jan. – 5 p.
16. Алимурадов, А. К. Фильтрация речевых сигналов с использованием метода множественной декомпозиции и оценки энергии эмпирических мод / А. К. Алиму-радов, П. П. Чураков, А. Ю. Тычков // Известия высших учебных заведений. По-волжский регион. Технические науки. – 2012. – № 2 (22). – С. 50–61.

 

Дата создания: 31.07.2015 14:33
Дата обновления: 02.10.2015 08:56